Control de tasa de aprobación de rollout: guiando el RL de recompensa binaria hacia su régimen más informativo
<meta content=Descubre cómo el control de tasa de aprobación mejora el aprendizaje por refuerzo con recompensa binaria. Clave para optimizar modelos de RL de forma eficiente.>